#modelos de lenguaje visual

Viendo el tiempo: Evaluando el razonamiento cronológico en VLMs

Descubre cómo los VLMs fallan al razonar sobre el tiempo, usando atajos visuales en lugar de lógica cronológica. Nuevo benchmark y datasets para mejorar la IA.

2026-06-06 · 2 min

Drive-KD: Destilación multi-profesor para VLMs en conducción autónoma

Drive-KD destila conocimiento multi-profesor para VLMs en conducción autónoma: menor uso de GPU, mayor throughput y rendimiento superior en planificación.

2026-06-06 · 2 min

ViCuR: Destilación multimodal on-policy con señales visuales recuperables

ViCuR mejora el razonamiento visual en destilación multimodal on-policy usando señales visuales recuperables, superando métodos en +1.19%.

2026-06-05 · 2 min

Aprendizaje de autocorrección en modelos visión-lenguaje mediante aumento de trayectorias

Descubre cómo Octopus-8B logra autocorrección eficiente en VLMs mediante aumento de trayectorias, superando a otros modelos con un 1.0 de puntuación y menor tiempo de entrenamiento.

2026-06-05 · 2 min

Respuesta a preguntas 3D Zero-Shot mediante transporte jerárquico de vista a token

Descubre cómo KeyVT optimiza la selección de vistas y tokens para responder preguntas sobre escenas 3D sin entrenamiento, superando a métodos existentes.

2026-06-03 · 3 min

De diagnóstico interno a auditoría externa: defensa contra backdoors con VLM

Conoce PRISM, un marco basado en VLMs que cambia el diagnóstico interno por auditoría externa para neutralizar backdoors con tasa de éxito menor al 1%.

2026-06-03 · 2 min

Modelos de lenguaje visual no razonan transformaciones físicas

Descubre por qué los modelos de lenguaje visual fallan al razonar sobre transformaciones físicas. Un nuevo estudio con 112 modelos revela limitaciones críticas.

2026-06-03 · 1 min